到目前為止,我們已經知道了四種和 BigQuery 溝通的方法,也知道如何查詢的公共數據集。
但是在我們大部分的使用情境,還是會需要上傳自己的資料。那麼,BigQuery 又吃哪些類型的資料呢? 我們繼續看下去吧!
我們在前面介紹 BigQuery 的時候,就有提到 BQ的好處是彈性大,沒錯,他支援非常多種的資料類型,下圖我們列出幾個常用的資料類型:
Avro、Parquet和 ORC,這三個都是大數據文件的格式,並且是基於Hadoop文件系統優化出的存儲結構,關於這類型的數據請參考這裡。
CSV相信大家都很熟,這裡就不再贅述。
JSON 也是很常使用的一種資料格式,JSON的全名是 JavaScript Object Notation ,主要是以 key value 的形式儲存,大概會長下面這個樣子:
Google cloud storage:
在 GCP 上的服務,是 Object Storage 的形式,使用上存在配額限制,比如單個檔案不能大於 5TB。
Google cloud bigtable:
在 GCP 上的服務,是 NoSQL Wide column的形式。
Google drive:
這個我們平常也很常使用,不再贅述。
Azure blob:
在 Azure 上的服務,是 Object Storage 的形式,
AWS S3:
在 AWS 上的服務,是 Object Storage 的形式。
BigQuery 的資料是存在不同的國家和城市,使用上需注意儲存區域和地區,以確保相關的服務可以互相串接。
(1) BigQuery 支援的資料類型有非常多種格式,包含 Avro, parquet, ORC, JSON和 CSV。
(2) BigQuery 支援的資料來源有很多種,包含 Google cloud storage, Google cloud bigtable, Google drive, Azure blob, AWS S3。
https://cloud.google.com/bigquery/docs/loading-data-cloud-storage-csv